AI资讯新闻榜单内容搜索-Model Dist

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Model Dist

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

来自主题: AI资讯

10085 点击 2025-10-29 11:12